Average word length | # of sentences | Source |
---|---|---|
4.86 | 15 | http://vi.wikipedia.org/wiki/.pk |
4.90 | 20 | http://vi.wikipedia.org/wiki/Cô_nàng_đáng_yêu |
4.93 | 18 | http://vi.wikipedia.org/wiki/An_Bình,_Biên_Hòa |
5.00 | 11 | http://vi.wikipedia.org/wiki/Danh_sách_câu_lạc_bộ_bóng_đá_giá_trị_nhất_theo_Forbes |
5.08 | 17 | http://vi.wikipedia.org/wiki/Sân_vận_động_bóng_đá_Ulsan_Munsu |
5.12 | 19 | http://vi.wikipedia.org/wiki/Holler_(EP) |
5.13 | 34 | http://vi.wikipedia.org/wiki/Hồi_đáp_1988 |
5.14 | 15 | http://vi.wikipedia.org/wiki/Nhà_máy_sản_xuất_trực_thăng_Mil_Moskva |
5.18 | 10 | http://vi.wikipedia.org/wiki/.kz |
5.18 | 12 | http://vi.wikipedia.org/wiki/Tràng_An,_Bình_Lục |
5.19 | 11 | http://vi.wikipedia.org/wiki/Sa_nhân_hồi |
5.20 | 12 | http://vi.wikipedia.org/wiki/Bộ_ba_số_Pythagore |
5.20 | 15 | http://vi.wikipedia.org/wiki/Kevin_Owens |
5.22 | 21 | http://vi.wikipedia.org/wiki/Tam_giác_Heron |
5.22 | 47 | http://vi.wikipedia.org/wiki/Tây_Azerbaijan |
5.23 | 18 | http://vi.wikipedia.org/wiki/Hoa_hậu_Thế_giới_2012 |
5.23 | 10 | http://vi.wikipedia.org/wiki/Ga_Takao_(Tokyo) |
5.25 | 10 | http://vi.wikipedia.org/wiki/Hoàng_thảo_đơn_cam |
5.25 | 11 | http://vi.wikipedia.org/wiki/Tân_Hạnh,_Biên_Hòa |
5.26 | 10 | http://vi.wikipedia.org/wiki/Samsung_Galaxy_Tab_Pro_12.2 |
5.26 | 10 | http://vi.wikipedia.org/wiki/Hydro_sulfua |
5.26 | 18 | http://vi.wikipedia.org/wiki/Cúp_bóng_đá_Phần_Lan_2012 |
5.28 | 11 | http://vi.wikipedia.org/wiki/Số_nguyên_tố_cùng_nhau |
5.29 | 26 | http://vi.wikipedia.org/wiki/Hố_Nai |
5.30 | 19 | http://vi.wikipedia.org/wiki/Tấn_Hề_Tề |
5.30 | 11 | http://vi.wikipedia.org/wiki/Pink_Season_(album_của_Apink) |
5.30 | 10 | http://vi.wikipedia.org/wiki/Sếu_Mỹ |
5.31 | 10 | http://vi.wikipedia.org/wiki/Phá_lửa |
5.31 | 13 | http://vi.wikipedia.org/wiki/Cúp_bóng_đá_Phần_Lan_2013 |
5.31 | 11 | http://vi.wikipedia.org/wiki/Cúp_bóng_đá_Ukraina_2005–06 |
Average word length | # of sentences | Source |
---|---|---|
21.81 | 16 | http://vi.wikipedia.org/wiki/A_Quế |
9.78 | 97 | http://vi.wikipedia.org/wiki/Xi_Vưu |
9.62 | 19 | http://vi.wikipedia.org/wiki/Thục_Hán |
8.32 | 10 | http://vi.wikipedia.org/wiki/Cao_Mật_Công_chúa |
7.65 | 14 | http://vi.wikipedia.org/wiki/Chlamydia_trachomatis |
7.57 | 22 | http://vi.wikipedia.org/wiki/Pháp_Xứng |
7.36 | 31 | http://vi.wikipedia.org/wiki/Diêu_Dặc_Trọng |
7.32 | 33 | http://vi.wikipedia.org/wiki/Đại_học_Minnesota |
7.28 | 10 | http://vi.wikipedia.org/wiki/Kính_Mẫn_Hoàng_quý_phi |
7.21 | 14 | http://vi.wikipedia.org/wiki/Thất_Mục |
7.19 | 30 | http://vi.wikipedia.org/wiki/Cúp_C1_châu_Âu_1965–66 |
7.14 | 10 | http://vi.wikipedia.org/wiki/Enterobacteriaceae |
7.11 | 10 | http://vi.wikipedia.org/wiki/Lilium_auratum |
7.10 | 10 | http://vi.wikipedia.org/wiki/Dị_long_răng_cá_mập |
7.08 | 22 | http://vi.wikipedia.org/wiki/Kinh_Kim_Cương |
7.08 | 24 | http://vi.wikipedia.org/wiki/Atsumori_(vở_kịch) |
7.06 | 10 | http://vi.wikipedia.org/wiki/Ngô_Miễn |
7.05 | 13 | http://vi.wikipedia.org/wiki/Động_đất_Hōei |
7.05 | 13 | http://vi.wikipedia.org/wiki/Vsevolod_Alexandrovich_Rozhdestvensky |
7.05 | 11 | http://vi.wikipedia.org/wiki/Đại_học_Giao_thông_Đường_bộ_Moskva |
7.04 | 16 | http://vi.wikipedia.org/wiki/Vòng_loại_trực_tiếp_UEFA_Champions_League_2007-08 |
7.03 | 14 | http://vi.wikipedia.org/wiki/Sách_Ngạch_Đồ |
7.02 | 10 | http://vi.wikipedia.org/wiki/Stavka |
7.01 | 20 | http://vi.wikipedia.org/wiki/Tống_Nhược_Chiêu |
6.99 | 14 | http://vi.wikipedia.org/wiki/Từ_(nước) |
6.96 | 14 | http://vi.wikipedia.org/wiki/Aleksei_Aleksandrovich_Surkov |
6.96 | 26 | http://vi.wikipedia.org/wiki/Cúp_C1_châu_Âu_1960–61 |
6.96 | 13 | http://vi.wikipedia.org/wiki/Nicolai_Makarovich_Oleynikov |
6.94 | 34 | http://vi.wikipedia.org/wiki/Cúp_C1_châu_Âu_1967-68 |
6.94 | 21 | http://vi.wikipedia.org/wiki/Flavonoid |
The problem addressed in this subsection (as well as the results) is similar to 6.4.1.1, but now we focus on average word length instead of average sentence length.
Measuring average word length strongly depends on tokenization. The usual tokenization might split the string “28.06.2005” into five parts “28 . 06 . 2005” of average length two. To avoid this, the number of words is counted as 1 + (number of blanks in the sentence).
select round(avg(length(sentence) / (1+ length(sentence) - length(replace(sentence," ","")))),2) as le, count(sentence) as cnt, source from sentences s, inv_so i, sources so where s.s_id=i.s_id and i.so_id=so.so_id group by source having cnt>=10 order by le limit 30;
6.4.2.2 Average logarithmic word rank for different sources
6.4.2.3 Sources consisting of many / few words with frequency 1
6.4.2.4 Sources with low / high average word length of rare words